AlphaGo Zero

Exemple du Jeu de Go

AlphaGo Zero est une version améliorée du logiciel de go AlphaGo produite par l'entreprise DeepMind introduite par un article dans la revue Nature du . Il s'agit d'une version développée sans l'aide de données provenant de parties jouées entre humains, ni de connaissances autres que les règles du jeu. Cette version est plus forte que n'importe quelle version précédente[1]. En jouant contre lui-même, AlphaGo Zero a dépassé la force de la version d’AlphaGo du match contre Lee Se-dol en trois jours en gagnant par 100 jeux à 0, a atteint le niveau d’AlphaGo Master en 21 jours, et a dépassé toutes les anciennes versions en 40 jours[2].

En , une version généraliste d'AlphaGo Zero, nommé AlphaZero, a battu une version d'AlphaGo Zero ayant 3 jours d'apprentissage à 60 parties à 40. Avec 8 heures de pratique, elle a surpassé la version d’AlphaGo lors du match contre Lee Se-dol sur l'échelle Elo, ainsi que le programme d'échecs de haut niveau Stockfish et le programme de shogi Elmo[3],[4].

  1. David Silver, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, Lucas Baker, Matthew Lai, Adrian Bolton, Yutian Chen, Timothy Lillicrap, Hui Fan, Laurent Sifre, George van den Driessche, Thore Graepel et Demis Hassabis, « Mastering the game of Go without human knowledge », Nature, vol. 550, no 7676,‎ , p. 354–359 (ISSN 0028-0836, DOI 10.1038/nature24270, lire en ligne, consulté le )
  2. Demis Hassabis et David Siver, « AlphaGo Zero: Learning from scratch », DeepMind official website, (consulté le )
  3. (en) David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai et al., « Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm », .
  4. « Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours », sur telegraph.co.uk

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Tubidy